查看原文
其他

大邓 2018-05-24

玩机器学习的童鞋都知道数据集的重要性,没有数据粮食喂养,好的模型是长不出来的,形象的比喻就是“巧妇难为无米之炊”。

这一年多来一直在摸索文本分析领域,文科生一枚摸着石头过河,很可惜一直没有出什么东西。不过却也在这过程中积累了一些在线评论数据集。大多是在百度网盘、谷歌遇到我觉得有用的数据我一般会下载下来。大邓都整理到csv中,方便大家使用pandas进行数据分析。今天我整理了一下,分享给大家。

中文在线评论数据

中文的数据主要电商平台在线评论数据,且均标注正负情感标签的,领域包括:

  • 计算机

  • 热水器

  • 服装

  • 手机

  • 书籍

  • 洗发水

  • 外卖

通过这些标注的各个领域评论数据,我们可以训练各自领域的情感分析模型。有余力的童鞋也可以构建相关领域属性词典,想想就很激动。大邓这里打开其中一个文件,样子大概是这样的。

此外还有微博评论数据,有人将其标注为4种情绪,数据量10万条。再次感谢他们的辛勤劳动。

亚马逊评论数据集

该数据集的发现要感谢山东烟台的一位网友,向我咨询问题的时候给我留下了 加州大学圣地哥分校Julian McAuley教授的Amazon product ata数据集页面。

数据集简介:

该数据集包含来自亚马逊的产品评论和元数据,其中包括1996年5月至2014年7月的1.4亿条评论。 该数据集包括评论(评分,文字,乐于投票),产品数据(产品描述,类别信息,价格,品牌和图像特征)以及产品链接。

亚马逊1996-2014年 近200G数据(这只是部分数据,更大更大的数据需要找Julian McAuley教授要)。这是教授的官方介绍,居然还有一个视频直播。大邓写这篇文章时美国大概是晚上十点,可能教授下班了,所以屋子里没有。如果赶巧的话,你们能看到教授搞学习。😆

词典数据集

做文本分析,尤其是情感分析需要有词典。大邓收集的词典包括:

  • NTUSD词典(台湾大学)

  • 知网Hownet

  • NRC多语言词典

  • 大连理工大学情感本体库

  • 哈工大同义词词林

其中NRC词典和大连理工大学情感本体库是细粒度情感词典,可以将每个词的多种情绪维度进行了标注。如果做细粒度情感分析,就使用这两个词典,NRC词典是多语言版本,英法俄日汉阿拉伯等几十种语言。

往期文章

100G Python学习资料:从入门到精通! 免费下载

为什么你要为2019,而不是2018做计划? 

机器学习|八大步骤解决90%的NLP问题

2017年度15个最好的数据科学领域Python库  

读取pdf和docx文件,亲测有效

如何从文本中提取特征信息?  

初识K-means算法

对于中文,nltk能做哪些事情 

留在网上的每个字,都在泄露你的身份

优雅简洁的列表推导式

Get小技巧等分列表

如何对数据进行各种排序?

【视频讲解】Scrapy递归抓取简书用户信息

美团商家信息采集神器 

用chardect库解决网页乱码问题

gevent:异步理论与实战  

轻盈高效的异步访问库grequests库

selenium驱动器配置详解

爬虫神器PyQuery的使用方法

简易SQLite3数据库学习

Python通过字符串调用函数

Python圈中的符号计算库-Sympy

Python中处理日期时间库的使用方法 




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存